Syllables


In [3]:
# http://docs.cltk.org/en/latest/latin.html#syllabifier
from cltk.stem.latin.syllabifier import Syllabifier

cato_agri_praef = "Est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum. Maiores nostri sic habuerunt et ita in legibus posiverunt: furem dupli condemnari, foeneratorem quadrupli. Quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare. Et virum bonum quom laudabant, ita laudabant: bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur. Mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum. At ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt. Nunc, ut ad rem redeam, quod promisi institutum principium hoc erit."

from cltk.tokenize.word import WordTokenizer
word_tokenizer = WordTokenizer('latin')
cato_cltk_word_tokens = word_tokenizer.tokenize(cato_agri_praef.lower())
cato_cltk_word_tokens_no_punt = [token for token in cato_cltk_word_tokens if token not in ['.', ',', ':', ';']]

# now you can see the word '-que'
print(cato_cltk_word_tokens_no_punt)


['est', 'interdum', 'praestare', 'mercaturis', 'rem', 'quaerere', 'nisi', 'tam', 'periculosum', 'sit', 'et', 'item', 'foenerari', 'si', 'tam', 'honestum', 'maiores', 'nostri', 'sic', 'habuerunt', 'et', 'ita', 'in', 'legibus', 'posiverunt', 'furem', 'dupli', 'condemnari', 'foeneratorem', 'quadrupli', 'quanto', 'peiorem', 'civem', 'existimarint', 'foeneratorem', 'quam', 'furem', 'hinc', 'licet', 'existimare', 'et', 'virum', 'bonum', 'quom', 'laudabant', 'ita', 'laudabant', 'bonum', 'agricolam', 'bonum', '-que', 'colonum', 'amplissime', 'laudari', 'existimabatur', 'qui', 'ita', 'laudabatur', 'mercatorem', 'autem', 'strenuum', 'studiosum', '-que', 'rei', 'quaerendae', 'existimo', 'verum', 'ut', 'supra', 'dixi', 'periculosum', 'et', 'calamitosum', 'at', 'ex', 'agricolis', 'et', 'viri', 'fortissimi', 'et', 'milites', 'strenuissimi', 'gignuntur', 'maxime', '-que', 'pius', 'quaestus', 'stabilissimus', '-que', 'consequitur', 'minime', '-que', 'invidiosus', 'minime', '-que', 'male', 'cogitantes', 'sunt', 'qui', 'in', 'eo', 'studio', 'occupati', 'sunt', 'nunc', 'ut', 'ad', 'rem', 'redeam', 'quod', 'promisi', 'institutum', 'principium', 'hoc', 'erit']

In [4]:
syllabifier = Syllabifier()

for word in cato_cltk_word_tokens_no_punt:
    syllables = syllabifier.syllabify(word)
    print(word, syllables)


est ['est']
interdum ['in', 'ter', 'dum']
praestare ['praes', 'ta', 're']
mercaturis ['mer', 'ca', 'tu', 'ris']
rem ['rem']
quaerere ['quae', 're', 're']
nisi ['ni', 'si']
tam ['tam']
periculosum ['pe', 'ri', 'cu', 'lo', 'sum']
sit ['sit']
et ['et']
item ['i', 'tem']
foenerari ['foe', 'ne', 'ra', 'ri']
si ['si']
tam ['tam']
honestum ['ho', 'nes', 'tum']
maiores ['ma', 'io', 'res']
nostri ['nos', 'tri']
sic ['sic']
habuerunt ['ha', 'bu', 'e', 'runt']
et ['et']
ita ['i', 'ta']
in ['in']
legibus ['le', 'gi', 'bus']
posiverunt ['po', 'si', 've', 'runt']
furem ['fu', 'rem']
dupli ['du', 'pli']
condemnari ['con', 'dem', 'na', 'ri']
foeneratorem ['foe', 'ne', 'ra', 'to', 'rem']
quadrupli ['qua', 'dru', 'pli']
quanto ['quan', 'to']
peiorem ['peio', 'rem']
civem ['ci', 'vem']
existimarint ['ex', 'is', 'ti', 'ma', 'rint']
foeneratorem ['foe', 'ne', 'ra', 'to', 'rem']
quam ['quam']
furem ['fu', 'rem']
hinc ['hinc']
licet ['li', 'cet']
existimare ['ex', 'is', 'ti', 'ma', 're']
et ['et']
virum ['vi', 'rum']
bonum ['bo', 'num']
quom ['quom']
laudabant ['lau', 'da', 'bant']
ita ['i', 'ta']
laudabant ['lau', 'da', 'bant']
bonum ['bo', 'num']
agricolam ['a', 'gri', 'co', 'lam']
bonum ['bo', 'num']
-que ['-que']
colonum ['co', 'lo', 'num']
amplissime ['am', 'plis', 'si', 'me']
laudari ['lau', 'da', 'ri']
existimabatur ['ex', 'is', 'ti', 'ma', 'ba', 'tur']
qui ['qui']
ita ['i', 'ta']
laudabatur ['lau', 'da', 'ba', 'tur']
mercatorem ['mer', 'ca', 'to', 'rem']
autem ['au', 'tem']
strenuum ['stre', 'nu', 'um']
studiosum ['stu', 'di', 'o', 'sum']
-que ['-que']
rei ['rei']
quaerendae ['quae', 'ren', 'dae']
existimo ['ex', 'is', 'ti', 'mo']
verum ['ve', 'rum']
ut ['ut']
supra ['su', 'pra']
dixi ['di', 'xi']
periculosum ['pe', 'ri', 'cu', 'lo', 'sum']
et ['et']
calamitosum ['ca', 'la', 'mi', 'to', 'sum']
at ['at']
ex ['ex']
agricolis ['a', 'gri', 'co', 'lis']
et ['et']
viri ['vi', 'ri']
fortissimi ['for', 'tis', 'si', 'mi']
et ['et']
milites ['mi', 'li', 'tes']
strenuissimi ['stre', 'nu', 'is', 'si', 'mi']
gignuntur ['gig', 'nun', 'tur']
maxime ['ma', 'xi', 'me']
-que ['-que']
pius ['pi', 'us']
quaestus ['quaes', 'tus']
stabilissimus ['sta', 'bi', 'lis', 'si', 'mus']
-que ['-que']
consequitur ['con', 'se', 'qui', 'tur']
minime ['mi', 'ni', 'me']
-que ['-que']
invidiosus ['in', 'vi', 'di', 'o', 'sus']
minime ['mi', 'ni', 'me']
-que ['-que']
male ['ma', 'le']
cogitantes ['co', 'gi', 'tan', 'tes']
sunt ['sunt']
qui ['qui']
in ['in']
eo ['e', 'o']
studio ['stu', 'di', 'o']
occupati ['oc', 'cu', 'pa', 'ti']
sunt ['sunt']
nunc ['nunc']
ut ['ut']
ad ['ad']
rem ['rem']
redeam ['re', 'de', 'am']
quod ['quod']
promisi ['pro', 'mi', 'si']
institutum ['in', 'sti', 'tu', 'tum']
principium ['prin', 'ci', 'pi', 'um']
hoc ['hoc']
erit ['e', 'rit']

Prosody

Takes two steps: first find long vowels, then scan actual meter


In [6]:
# macronizer
# http://docs.cltk.org/en/latest/latin.html#macronizer
from cltk.prosody.latin.macronizer import Macronizer

macronizer = Macronizer('tag_ngram_123_backoff')

text = 'Quo usque tandem, O Catilina, abutere nostra patientia?'

scanned_text = macronizer.macronize_text(text)

In [7]:
# scanner
# http://docs.cltk.org/en/latest/latin.html#prosody-scanning

from cltk.prosody.latin.scanner import Scansion

scanner = Scansion()
prose_text = macronizer.macronize_tags(scanned_text)
print(prose_text)


[('quō', None, 'quō'), ('usque', 'd--------', 'usque'), ('tandem', 'd--------', 'tandem'), (',', 'u--------', ','), ('ō', None, 'ō'), ('catilīnā', None, 'catilīnā'), (',', 'u--------', ','), ('abūtēre', None, 'abūtēre'), ('nostrā', None, 'nostrā'), ('patientia', 'n-s---fn-', 'patientia'), ('?', None, '?')]

In [ ]: